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2, 098 名 2 至 6 年 级 小 学 生 进 行 问卷 调查 ,采用 机 器 学 习 法 , 考察 个 体 认 知 、 道 德 判 断 、 同 伴 行为 ， 及 性 别 、 年 级 、 
成 绩 等 因素 对 小 学 生 作业 作 次 行为 的 影响 。 结 果 表 明 : 集成 机 器 学 习 模 型 对 小 学 生 作业 作弊 预测 准确 率 (AUC 均 


值 ) 达 80.46%; 对 作业 作 商 预测 效应 最 强 的 4 个 因素 依次 为 个 体 对 作业 作 商 的 接受 程度 、 观察 到 同伴 作 紫 的 普遍 性 


和 频率 ， 及 其 自身 成 绩 。 
关键 词 
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1 引言 


学 业 作业 是 古往今来 困扰 教育 工作 者 的 难题 。 
它 是 指 学 生 为 获得 理想 的 学 业 成 绩 或 排名 而 采取 的 
秘密 且 有 意 破坏 学 业 诚 信 准 则 的 行为 ,其 重要 表现 
WAZ AVAIL TEBE. BI ADUR AR, 我 国 小 
学 生 的 课业 负担 明显 减轻 ,但 不 可 否认 ， 较 之 国外 ， 
“作业 ”依然 是 我 国 义务 教育 阶段 小 学 生 最 主要 的 学 
业 任 务 , 作业 作 兹 行为 在 小 学 生 中 仍 普 遍 存 在 。 小 
学 阶段 是 个 体 道德 意识 形成 及 道德 行为 习惯 塑造 的 
关键 期 , 这 一 阶段 学 生 做 出 的 作业 作 次 行为 既 会 导 
致 其 学 业 成 绩 不 佳 进而 在 考试 中 作 浆 ,和 久而久之， 
又 容易 使 其 作 准 行为 习惯 化 。 并 且 ， 对 儿童 期 的 作 
闵行 为 阁 不 重视 并 加 以 及 时 引导 和 干预 ,很 容易 导 
致 个 体 在 成 人 后 表现 出 更 严重 的 问题 行为 ， 如 违法 
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小 学 生 , 诚信 ， AER, 作业 作弊 ,机 器 学 习 ， 预 测 ， 同 伴 行为 


乱 纪 或 犯罪 (Williams & Williams, 2012)。 且 “ 双 减 ” 
政策 在 强调 “减负 ”的 同时 ， 也 明确 了 提高 作业 质量 
的 需求 ， 并 提倡 杜绝 “ 唯 成 绩 论 ”。 可 以 预期 ， 相 较 于 
考试 成 绩 ,小 学 生 的 作业 质量 等 平时 学 业 表 现在 未 
来 的 学 业 评 价 体系 中 可 能 更 为 重要 。 为 此 ,本 研究 
就 作业 作 商 行为 在 小 学 阶段 的 发 展 及 其 关键 性 影响 
因素 进行 深入 考察 ， 以 期 为 探索 作 次 的 发 展 机 制 以 
及 提出 有 针对 性 的 早期 干预 方法 提供 科学 依据 。 
在 学 术 界 ,有关 学 业 作 次 的 研究 已 有 近 百 年 历 
史 (Hartshorne & May, 1928)。 纵 观 现 有 的 实证 研究 ， 
绝 大 多 数 都 来 自 国 外 ,， 且 研究 对 象 几乎 全 部 聚焦 于 
大 学 生 和 中 学 生 群 体 (参见 Anderman & Midgley, 
2004; Cizek, 1999; Hrabak et al., 2004), 极 少 有 研究 
关注 小 学 生 群 体 (Hartshorne & May, 1928)。 虽然 , 早 
在 1928 年 , Hartshorne 和 May 的 研究 就 已 揭示 小 学 
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阶段 儿童 会 自发 地 做 出 学 业 作 弊 行 为 。 但 在 此 之 后 ， 
因 西 方 教育 体制 改革 导致 国外 小 学 阶段 的 考试 和 作 
业 一 度 被 取消 ， 故 针对 小 学 生 作 弊 的 实证 研究 也 一 
度 停 清 。 与 此 同时 ,在 研究 内 容 方面 ,国外 学 业 作 
浆 的 研究 主要 集中 于 考试 作弊 (Bong，2008; Freire, 
2014)， 针 对 作业 作弊 的 研究 非常 少 。 可 以 说 ,到 目前 
为 止 尚未 有 研究 专门 考察 过 小 学 生 的 作业 作 次 行为 。 

与 国外 相 比 , 国内 有 关 学 业 作 次 的 实证 研究 起 
步 更 晚 ， 且 研究 对 象 全 部 集中 于 大 学 生 群 体 (如 : 8f 
首 立 等 , 2018; 易 晓 明 , 2021)， 针 对 小 学 生 作 头 ( 尤 
其 是 作业 作 次 ) 的 实证 研究 尚 属 空 白 。 虽 然 有 关 大 学 
生 学 业 作 业 的 研究 结果 可 以 为 小 学 生 作业 作 商 研究 
提供 一 定 的 思路 和 借鉴 。 但 与 大 学 生 相 比 , 小 学 生 的 
道德 认 知 发 展 水 平 更 低 ， 故 针对 前 者 的 研究 结果 是 
否 适 用 于 小 学 生 和 群体 尚 不 明确 。 鉴 于 此 ,本 研究 将 立 
足 我 国 国情 ， 以 国内 外 现 有 实证 研究 结果 为 基础 ， 重 
点 考察 影响 当前 我 国 小 学 生 作 业 作 次 行为 的 可 能 因 
R, 并 从 中 寻找 关键 性 影响 因素 。 本 研究 结果 旨 在 为 
建构 儿童 诚信 行为 发 展 的 理论 模型 ， 以 及 道德 行为 
发 展 理论 的 完善 和 本 土 化 提供 重要 的 科学 依据 。 

具体 说 来 , 本 研究 将 以 2 至 6 年 级 小 学 生 为 研究 
对 象 ,采用 大 样本 问卷 调查 法 和 机 带 学 习 (Machine 
Learning, Pedregosa et al., 2011) 相 结合 的 方法 ,考察 
小 学 生 作 业 作弊 行为 的 年 级 发 展 趋势 , 重点 分 析 不 
同 因素 对 作业 作弊 的 影响 及 其 相对 重要 性 。 

机 器 学 习 是 数 智 时 代 新 兴 的 数据 分 析 方 法 ,也 
是 人 工 智 能 的 核心 方法 , 它 依赖 于 计算 机 算法 ， 旨 
在 通过 数据 分 析 和 建 模 实现 对 人 类 行为 的 模拟 。 近 
年 来 ,不 少 心理 学 研究 者 已 将 机 器 学 习 应 用 于 诸如 
情绪 (Just et al，2017) 和 精神 病理 学 等 方面 的 研究 
(如 Bartlett et al., 2014; Livieris et al., 2018), 也 有 少 
数 人 研究 者 开始 将 该 方法 用 于 儿童 研究 (Bruer et al., 
2019; Zanette et al., 2016)。 与 传统 的 统计 建 模 相 比 ， 
机 器 学 习 具 有 以 下 4 个 方面 的 优势 。 

首先 ， 机 器 学 习 对 原始 数据 的 处 理 有 助 于 提高 
最 终 模 型 的 外 部 效 度 。 传 统 分 析 方 法 (如 , 广义 线性 
模型 GLM 、 广 义 佑 计 方 程 GEE， 等 等 ) 通 常 将 所 有 
数据 统一 纳入 分 析 , 往往 导致 模型 过 度 拟 合 ， 所 获 
模型 的 概 化 能 力 即 外 部 效 度 较 差 。 与 之 不 同 ,机 顺 
学 习 ( 往 往 需要 较 大 的 样本 量 ) 事 先 将 数据 分 为 3 个 
TÆ: 训练 集 (train set)、 测 试 集 (test set) 和 留 出 集 
(holdout set)。 首 先 用 训练 集 数 据 来 拟 合 模型 ,然后 
用 测试 集 数 据 来 检验 模型 。 再 对 这 两 个 子 集 进行 重 
组 , 重新 随机 划分 为 新 的 训练 集 和 新 的 测试 集 ， 进 


行 模型 拟 合 和 了 验 证。 这 个 过 程 将 重复 多 次 , 并 产生 
多 个 可 预测 结果 变量 的 模型 。 最 后 , 用 事先 预 留 的 
留 出 集 数据 对 这 些 模型 的 预测 力 做 进一步 评估 ， 即 验 
证 这 些 模 型 的 预测 力 能 否 概 化 到 新 的 数据 中 。 这 种 验 
证 实现 了 对 模型 外 部 效 度 的 评估 (Campbell, 1986)。 
其 次 ,机 器 学 习 宫 括 了 多 种 算法 ,可 被 灵活 应 
用 于 处 理 各 类 复杂 多 变 的 变量 间 关 系 。 本 研究 将 采 
用 近年 来 广 受 关注 的 集成 学 习 法 (Ensemble 
Learning, 参见 Ykhlef & Bouchaffra, 2017)。 该 方法 
首先 通过 不 同 机 器 学 习 算 法 对 同一 样本 群体 进行 训 
练 。 具 体 算法 包括 描述 变量 间 线 性 关系 的 逻辑 回归 
(Logistic Regression, Yarkoni & Westfall, 2017), fii 
述 变量 间 非 线性 关系 的 多 层 感知 机 (Multilayer 
Perceptron, MLP)、 极 端 梯 度 提升 (eXtreme Gradient 
Boosting，XGBoosb 和 随机 森林 (Random Forest) 等 
(参见 Golino et al., 2014)。 随 后 , 将 所 有 算法 的 训练 
结果 整合 起 来 。 集 成 法 的 优势 在 于 能 够 集 各 种 算法 
之 长 , 最 大 程度 上 对 预测 变量 和 结果 变量 的 关系 进 
行 解释 ， 从 而 使 最 终 模 型 的 预测 效果 达到 最 佳 。 
第 三 ， 机 器 学 习 可 通过 Shapley 值 ， 量 化 不 同 影 
响 因素 在 整个 模型 中 的 相对 重要 性 。Shapley 值 于 
1953 年 由 诺 贝 尔 经 济 学 奖 获 得 者 Lloyd Shapley 提 
出 (Shapley, 1953), 主要 用 于 衡量 各 个 预测 变量 对 结 
果 变 量 的 相对 贡献 大 小 ,是 机 器 学 习 结 果 的 重要 参 
考 指标 之 一 (Smith & Alvarez, 2021)。 该 值 越 大 ， 代 
表 该 预测 因素 对 结果 变量 的 预测 力 越 强 ; 反之 , 则 
代表 该 因素 的 预测 力 越 弱 。 大 该 值 趋 近 于 零 时 ， 则 
代表 该 因素 对 结果 变量 几乎 不 存在 有 效 预测 力 。 
最 后 , 机 融 学 习 能 够 将 所 有 预测 变量 对 结果 变 
量 的 预测 效应 进行 量化 ， 从 而 创建 一 个 关于 结果 变 
量 (如 “小 学 生 作 业 作 次 的 概率 ”) 的 预测 模型 ,模型 建 
立 后 ,， 若 将 某 个 学 生 在 相应 预测 变量 上 的 得 分 输入 
模型 ， 即 可 输出 该 学 生 作 业 作 次 的 可 能 性 ( 即 作 次 的 
概率 )。 依 据 这 一 结果 ， 能 够 初步 预测 学 生 有 多 大 的 
可 能 性 会 在 作业 中 作弊 ， 以 便于 教师 或 家 长 进行 必 
要 的 关注 ， 并 结合 学 生 的 实际 表现 采取 针对 性 的 教 
育 和 干预 措施 。 
基于 上 述 机 器 学 习 的 优势 ,本 研究 将 重点 考察 
部 分 因素 ( 即 预 测 因 素 ) 对 小 学 生 作 业 作 浆 行 为 的 影 
响 。 在 影响 因素 选取 方面 , 由 于 国内 外 对 小 学 生 作 
业 作 浆 行 为 影响 因素 的 研究 几乎 为 空白 , 故 本 研究 
主要 参考 了 Murdock 和 Anderman (2006) 的 学 业 作 
次 动机 模型 ， 以 及 以 往 针 对 大 中 学 生 作业 作 次 行为 
的 研究 成 果 。 
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Murdock 和 Anderman (2006) 的 学 业 作 次 动机 模 
型 是 目前 为 止 在 作 次 (尤其 是 考试 作 次 ) 研 究 领 域 影 
响 力 最 大 且 应 用 最 广 的 模型 之 一 。 该 模型 整合 了 一 
系列 以 大 中 学 生 为 主要 研究 对 象 的 研究 成 果 ， 从 
“ 作 浴 的 代价 ”、“ 作 商 的 目的 ”及 “ 作 次 前 对 自我 和 结 
果 的 认 知 (我 能 做 到 吗 )* 三 个 方面 对 学 业 作 次 动机 进 
行 了 划分 。 其 中 ,“ 作 次 的 代价 ”主要 包括 作 次 后 被 抓 
的 后 果 、 个 体 道德 水 平 、 同 伴 作 次 的 后 果 、 关 于 诚 
信 的 规章 制度 等 等 ;“ 作 粗 的 目的 ”包括 同伴 压力 、 智 
Fh. REE SAG LZR “PE EIT A RAER A” 
则 主要 为 自我 效能 、 及 个 体 对 结果 的 预期 (Murdock 
& Anderman, 2006)。 

RAE LGR Eo LE, 在 综合 考虑 了 研 
究 成 果 未 来 在 小 学 中 的 可 实践 性 和 可 推广 性 ,同时 
参考 了 以 往 有 关 大 中 学 生 学 业 作 次 的 实证 研究 结 
本 研究 对 可 能 影响 小 学 生 作 业 作 浆 行为 的 因素 ( 即 
小 学 生 作 业 作 次 的 预测 因素 ) 进 行 了 第 选 , 重点 包括 
以 下 几 方 面 。 

第 一 , VERS RAST EE —Ar ial, 在 Murdock 
和 Anderman (2006) 的 学 业 作 商 动机 模型 中 , TEBE 
后 果 被 看 作 是 学 业 作 弊 的 主要 动机 之 一 。 随 后 更 多 
的 实证 研究 也 表明 ， 作 商 的 后 果 严 重 性 对 大 中 学 生 
学 业 作 浆 行 为 存在 影响 (Kam et al., 2017; McCabe & 
Treviño, 1997; Molnar & Kletke, 2012)。 男 一 方面 是 
基于 实践 证 据 。 众 所 周知, “惩罚” 一直 被 我 国教 育 实 
践 工作 者 视 作 防 止 作 浆 发 生 的 “最 有 效 / 最 佳 措施 ”。 
然而 ,无论 是 古 时 将 科举 舞弊 者 量刑 人 罪 ,还 是 如 
今 教 育 主管 部 门 及 各 级 各 类 学 校 制定 的 针对 作 次 的 
处 罚 制度 (如 取消 考 斌 成绩、 取消 考试 资格 、 通 报批 
评 等 ), FRE SIEM. MART SEM, 目前 
DA PP BERT APE AY TEM VE BEAT AP LEAR o 
BEE IN PEL EAA ASE KEM, LEF 
其 频繁 性 和 参与 人 数 可 能 更 高 。 正 是 因为 作业 作 浆 
往往 被 看 成 是 一 种 风险 极 低 且 无 不 恨 后 果 的 违规 行 
为 ,导致 了 作业 作 商 的 普遍 性 和 频率 往往 较 高 。 
此 ,本 研究 假设 , 作 星 后 果 严 重 性 程度 是 影响 小 学 
生 作 业 作 浆 行 为 的 首要 因素 。 
第 二 , 作 次 的 可 接受 性 。Murdock 和 Anderman 
(2006) 的 学 业 作 次 动机 模型 认为 , 个 体 的 道德 水 平 
是 影响 学 业 作 浆 的 男 一 个 重要 因素 。 以 往 针 对 大 学 
生 和 中 学 生 的 实证 研究 表明 , 个 体 的 道德 意识 水 平 
影响 其 对 作 粹 可 接受 程度 的 判断 (Cheung et al., 
2016; Lee et al., 2020), 以 及 他 人 对 作 次 接受 程度 的 
判断 (Ives & Giukin, 2020)。 错 误 的 判断 很 可 能 导致 


个 体 美 化 或 弱化 学 业 作 灼 行为 。 故 本 研究 假设 , 个 
体 自 身 以 及 他 人 对 作弊 的 可 接受 性 是 影响 小 学 生 作 
业 作 弊 行 为 的 重要 因素 。 

第 三 , 小 学 生 对 作业 作 炊 预防 措施 的 有 效 性 评 
价 。Murdock 和 Anderman (2006) 的 学 业 作 次 动机 模 
型 指出 ,学 校 与 诚信 相关 的 规 莉 制度 对 作 商 行为 具 
有 一 定 的 影响 。 这 一 观点 在 之 后 的 实证 研究 中 也 得 
到 了 证 实 (Ramberg & Modin, 2019)。 但 另 一 些 调查 
发 现 ,学生 对 于 学 校 制 定 的 学 业 诚 信 政 策 或 许 并 不 
十 分 了 解 (Bretag et al., 2014; Gullifer & Tyson, 2014), 
这 可 能 是 导致 学 业 作弊 屡禁不止 的 潜在 原因 之 一 ， 
即 相关 政策 并 未 发 挥 应 有 的 约束 作用 。 因 此 ， 本 研 
究 假设 ,学 生 对 作弊 预防 措施 的 评价 ， 能够 有 效 预 
测 其 作业 作 浆 行为 。 

第 四 ,同伴 作 次 行为 。 以 往 在 大 中 学 生 中 开展 
的 实证 研究 曾 表 明 ， 观 察 到 同伴 做 出 作业 行 为 ， 可 
能 会 导致 个 体 对 作 浆 这 一 行为 进行 合理 化 (Jurdi 
etal., 2011; McCabe et al.，2008)， 进 而 影响 其 自身 
BG EVE MEATY HER (Hrabak et al., 2004)。 而 另 
一 方面 ,观察 到 同伴 参与 作 浆 行为 ,也 可 能 使 观察 
者 产生 “不 公平 感 ” 进而 更 倾向 于 作弊 。 故 本 研究 
假设 ， 同 伴 作弊 行为 能 够 有 效 预测 小 学 生 的 作业 作 
HEATH o 

除了 上 述 预 测 变量 外 ,本 研究 还 考察 了 包括 年 
龄 、 性 别 、 以 及 自我 报告 的 自 吴 学 业 成 绩 水 平等 一 
系列 人 口 统计 学 或 个 人 背景 变量 对 小 学 生 作业 作 次 
行为 的 预测 作用 。 其 中 ,以 往 针 对 大 中 学 生 的 研究 
发 现 ,成 绩 较 差 的 学 生 更 易 为 了 获得 好 成 绩 而 参与 
学 业 作 次 行为 (Newstead et al., 1996; Özcan et al., 
2019)， 且 自我 效能 感 低 ( 即 对 自身 能 力 认 知 较 差 的 
人 ) 的 学 生 作 次 的 可 能 性 也 越 高 (see Murdock & 
Anderman, 2006); 而 诸如 年 龄 、 性 别 等 人 口 统计 学 
变量 (Blachnio, 2019; Cizek, 1999; Freire, 2014; Jurdi 
et al.，2011) 与 个 体 的 学 业 作弊 行为 也 存在 相关 。 故 
本 研究 假设 ， 上 述 变量 对 小 学 生 作 业 作 次 行为 存在 
显著 预测 作用 。 

综 上 , 本 研究 将 采用 问卷 调查 法 ， 结 合 机 器 学 习 
技术 , 考察 (1) 作 业 作 浆 对 个 体 可 能 造成 的 后 果 及 其 严 
重 性 的 感知 ，(2) 个 体 自身 及 感知 到 同伴 对 作业 作 次 的 
接受 程度 , (3) 对 各 种 预防 作业 作 浆 措施 的 有 效 性 评价 ， 
(4) 感 知 到 同伴 的 作业 作 商 行为 ,以 及 (5) 年 龄 、 性 别 等 
人 口 统计 学 变量 对 小 学 生 作业 作 次 行为 的 影响 ; 在 此 
基础 上 , 构建 机 器 学 习 模 型 , 采用 集成 法 分 析 比 较 上 
述 因 素 对 作业 作弊 行为 的 预测 效应 。 
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2 方法 次 在 2 年 级 小 学 生 中 就 已 存在 ， 主 要 表现 为 抄 标准 
答案 和 抄 同学 作业 等 ; 小 学 生 普遍 认为 的 作 整 的 严 


本 研究 事先 经 过 了 杭州 师范 大 学 学 术 伦理 委员 
会 的 伦理 审查 ,并 征 得 了 学 生 所 在 学 校 及 学 生 家 长 
的 知情 同意 。 在 浙江 省 某 地 级 市 选取 了 3 所 不 同类 
型 的 小 学 : 普通 公办 小 学 (以 下 简称 “公办 小 学 ”)、 合 
外 来 务工 人 员 较 多 的 公办 小 学 (以 下 简称 “民工 子弟 
小 学 ”) 及 民办 小 学 各 1 所 ,选择 2 至 6 年级， 从 每 个 
年 级 中 随机 抽取 若干 班级 ， 进 行 整 班 问卷 调查 (考虑 
到 1 年 级 小 学 生 的 识字 水 平和 阅读 理解 能 力 均 十 分 
有 限 ， 且 其 家 庭 作业 很 少 ， 故 本 次 调查 未 将 其 纳入 ; 
JKP, 2019). 共计 2300 名 小 学 生 参 与 了 本 次 问卷 调 
查 。 其 中 , 157 份 问卷 完成 率 不 足 70%, 45 份 问卷 结 
果 变 量 相 关 题 目 未 作答 , 予以 剔除 。 最 终 得 到 有 效 
问卷 2098 份 。 有 效 样本 的 平均 年 龄 为 10.04 土 1.40 岁 
(男生 占 53%), 全 体 学 生 均 为 汉族 , 年 级 、 性 别 及 学 
校 等 分 布 情 况 见 下 表 。 

2.2 ”研究 工具 
2.2.1 问卷 编制 与 施 测 

考虑 到 国内 外 尚未 有 专门 针对 小 学 生 作业 作 次 
行为 的 问卷 , 故 本 研究 采用 自 编 的 问卷 进行 测量 ， 问 
卷 在 以 往 针 对 大 中 学 生 学 业 作 次 的 相关 研究 的 基础 
上 编制 而 成 。 问 卷 编制 过 程 分 为 3 个 阶段 。 

第 一 阶段 是 访谈 。 基 于 Lim 和 See (2001) 对 大 
学 生 学 业 作 次 的 现状 、 态 度 、 后 果 严 重 性 等 的 问卷 
调查 结果 ,编制 访谈 提纲 。 访 谈 主 要 针对 学 生 和 教 
师 两 类 群体 开展 。 在 学 生 层 面 , 访谈 内 容 主 要 涉及 
当前 小 学 生 作 次 (尤其 是 作业 作 兹 ) 行 为 的 现状 、 表 
现形 式 及 其 对 作 次 的 认 知 和 态度 等 ; 在 教师 层面 ， 
除 上 述 内 容 外 ,访谈 还 涉及 学 校 、 家 庭 在 应 对 学 生 
作 次 问题 方面 的 一 些 方 法 和 措施 ， 及 其 所 取得 的 成 
Bo SRA EIR 3 所 小 学 中 的 39 名 学 生 (这 些 受 访 学 
生 不 再 参与 后 续 的 正式 问卷 调查 ) 和 9 名 教师 参与 访 
谈 。 访 谈 全 程 录音 ， 并 由 两 位 不 知 研究 目的 的 心理 
学 硕士 生 进 行 转录 和 编码 。 访 谈 结 果 表 明 : 作业 作 


重 后 果 主 要 涉及 被 老师 或 家 长 批评 ,被 同学 嘲笑 等 ; 
其 认为 能 够 减少 作 次 的 有 效 措施 主要 有 努力 学 习 掌 
握 知 识 点 、 加 大 惩罚 力度 和 告知 家 长 等 。 

第 二 阶段 为 小 范围 试 测 。 在 访谈 的 基础 上 ， 进 
一 步 参 考 Bucciol 等 人 (2017) 有 关 大 学 生 学 业 作 次 的 
研究 问卷 ， 编 制 本 研究 的 初 测 问卷 。 在 上 述 3 所 学 
校 ， 随 机 选取 来 自 2 年 级 、4 年 级 和 5 年 级 的 共 158 
名 学 生 ( 初 测 被 试 同样 不 参与 后 续 的 正式 问卷 调查 ) 
进行 小 范围 试 测 。 根 据 问 卷 作答 情况 ,结合 试 测 过 
程 中 学 生 的 现场 反馈 ， 对 初 测 问 卷 进行 修订 ,并 对 
部 分 表述 不 清 , 难以 理解 , 或 有 疑问 的 条 目 及 选项 
进行 了 修订 和 完善 。 邀 请 两 位 心理 测量 学 方面 的 专 
家 对 修改 后 的 问卷 进行 了 审定 ， 最 终 形 成 本 研究 的 
正式 问卷 。 
第 三 阶段 为 正式 调查 。 在 上 述 3 所 学 校 , 从 2 
至 6 年 级 的 各 个 班级 中 按 一 定 比例 抽取 学 生 进 行 问 
卷 调查 (为 保证 被 试 代表 性 ， 抽样 时 确保 参与 调查 学 
生 的 学 业 成 绩 分 布 较为 广泛 )。 问 卷 调查 采用 一 对 多 
的 方式 , 在 各 个 班级 内 独立 进行 ,问卷 现场 发 放 ， 当 
场 收回 。 为 最 大 程度 地 消除 学 生 的 顾虑 ,问卷 采用 
匿名 的 形式 ， 且 问卷 发 放 、 填 写 和 回收 的 整个 过 程 
均 由 研究 助理 出 面 组 织 , 班主 任 或 任课 教师 均 未 在 
现场 ,也 未 参与 整个 问卷 调查 过 程 。 
2.3 正式 问卷 构成 

正式 问卷 主要 对 两 部 分 内 容 进 行 测量 。 一 是 研 
究 的 关键 结果 变量 一 一 作业 作 头 行为 , 二 是 预测 变 
量 ， 即 作业 作 头 行为 影响 因素 ,包括 个 体 心 理 变量 
和 人 口 统计 学 变量 两 个 方面 。 
2.3.1 AREE EENT ARAETA”) 

请 作答 者 就 自身 “在 平时 学 习 中 做 过 类 似 抄 别 
人 的 作业 / 抄 答案 /让 别人 帮忙 写作 业 等 的 行为 
my? ”从 “1”( 从 不 ) 到 “5”( 非 常 多 ) 进 行 5 点 利克 特 
量 表 评 分 。 


表 1 2098 名 有 效 被 试 的 部 分 人 口 统计 学 信息 情况 


年 级 a) 性 别 学 校 yen 
均值 标准 差 男 女 普通 公办 民工 子弟 小 学 民办 小 学 

2 年 级 7.86 0.60 205 192 210 83 104 397 

3 年 级 8.79 0.40 209 189 200 84 114 398 

4 年 级 9.79 0.33 209 176 186 85 114 385 

5 年 级 10.74 0.33 240 211 183 131 137 451 

6 年 级 11.75 0.34 253 214 155 173 139 467 
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笔者 在 后 续 的 数据 分 析 中 发 现 , 全 体 样 本 对 该 
问题 的 评分 呈 明 显 的 正 偏 态 ( 即 评分 为 “1 的 学 生 比 
例 很 高 ， 评 分 为 “2”~“5” 的 学 生 比 例 相当 且 均 较 低 )， 
无 法 按照 近似 正 态 分 布 处 理 。 为 避免 统计 偏差 ， 遂 
将 结果 变量 重新 编码 为 二 分 变量 ,其 中 将 评分 为 
“1 者 编码 为 “无 作 整 行为 者 ” 以 0 ths 将 评分 为 
“2”~*5” 者 编码 为 “有 过 作 次 行为 者 ”， 以 1 计 。 
2.3.2 ”预测 变量 (影响 因素 ) 的 测量 

(1) 对 作业 作 丈 行为 可 能 导 
价 (简称 “后 果 严 重 性 ”) 

根据 访谈 结果 , 列举 了 5 PEA VE RET A 
(Cronbach's a 系数 为 0.787) 可 能 导致 的 后 果 ( 如 “ 老 
师 批评 ”等 ) 请 作答 者 就 每 一 后 果 的 严重 性 程度 ， 
从 “1”( 一 点 也 不 严重 ) 到 “5” (非常 严重 ) 进 行 5 点 利 
克 特 量 表 评分 。 

(2) 对 作业 作 汐 行为 的 可 接受 性 (简称 “可 接受 性 ”) 

包括 两 个 条 目 : a. 小 学 生 自 身 对 作业 作弊 行为 
BAY FY Be SZ Be BE (Tal BRS A FO TBE”), b. 感 知 到 同伴 
XT VE Mk VE BE TON HI PT Be SZ FE BE (fh BR Je) PF AT BE 
HE) WATER AIM”? (GEA ERE) BIS” (GEA 
接受 ) 进 行 5 点 利克 特 量 表 评分 。 

(3) 对 能 够 减少 作业 作 准 行为 策略 的 有 效 性 评 
价 (简称 “策略 有 效 性 ”) 

根据 访谈 结果 ,列举 了 由 在 减少 作业 作 次 行为 
的 9 种 (Cronbach's a 系数 为 0.781， 具有 较 高 的 内 部 
一 致 性 ) 比 较 常 用 的 策略 (如 “老师 批 作业 更 加 仔细 ， 
从 而 找 出 那些 作弊 的 同学 ”等 ) 请 作答 者 就 每 一 策 
略 的 有 效 性 ， 从 “1”( 一 点 儿 也 没有 用 ) 到 “5”( 非 常 有 
用 ) 进 行 5 点 利克 特 量 表 评分 。 

(4) 观 察 到 的 同伴 的 作业 作 首 行为 (简称 “同伴 作 
ITH”) 

采用 3 个 条 目 进行 测量 : a EETA 
HIPER PE (ER AIEEE P E), ER NE 
业 作 次 行为 在 周围 同学 中 的 普遍 性 进行 “1”( 从 未 见 
有 人 这 样 做 过 ) 到 “5”( 几 乎 所 有 人 都 会 做 ) 的 5 点 利 
克 特 量 表 评 分 。 

b. 同伴 作业 作 次 行为 的 总 体 频 率 ( 简 称 “ 启 秦 帮 
BE IRD FE), 请 作答 者 就 周围 同学 做 出 作业 作 
次 行为 的 频率 进行 “1”( 从 未 ) 到 “5”( 经 常 ) 的 5 点 利 
克 特 量 表 评 分 。 

c. 同伴 所 采取 的 不 同形 式 的 作业 作 次 行为 的 
RORI LEER RR), INAS T WTR PH 
及 率 较 高 的 3 FETE MLE IME A FATE SK BI BPE aL Bt > 


后 果 的 严重 性 评 


答案 、 抄 他 人 作业 、 让 他 人 帮忙 写作 业 )， 请 作答 者 
就 周围 同学 做 出 每 一 种 具体 作 次 行为 的 频率 ,进行 
“1”( 从 未 ) 到 “5”( 经 常 ) 的 5 点 利克 特 量 表 评分 。 

(5) 人 口 学 信息 

具体 包括 : 学 校 类 型 (公办 小 学 、 民 工 子弟 小 学 
及 民办 小 学 )、 年 龄 、 性 别 、 年 级 (2 至 6 年 级 )、 是 
否 为 独生子 女 以 及 有 关 学 习 成 绩 的 自我 评价 (自身 
成 绩 高 于 、 等 于 或 低 于 班级 平均 水 平 )。 
2.4 机 器 学 习 模 型 建构 

采用 SPSS 24.0 软件 分 析 数 据 。 首 先进 行 描述 
性 统计 分 析 ,， 在 此 基础 上 运用 机 器 学 习 进 行 统计 建 
模 分 析 。 考 虑 到 机 器 学 习 算 法 的 多 样 性 ， 以 及 预测 
变量 和 结果 变量 间 关 系 的 未 知性 ， 本 研究 采用 集成 
学 习 法 , 首先 通过 4 种 不 同 算法 对 小 学 生 作 业 作 次 
行为 的 预测 模型 进行 拟 合 ,然后 基于 Stacking 法 将 
4 种 不 同 算法 的 训练 结果 进行 整合 。 这 4 种 算法 具 
体 为 : 逻辑 回归 、 多 层 感知 机 (MLP) 、 极 端 梯度 提 
升 XGBoosb 和 随机 森林 。 
2.4.1 ”四 种 机 器 学 习 算 法 及 步骤 

逻辑 回归 是 一 种 广义 线性 回归 ， 是 用 逻辑 函数 
解决 对 分 类 变量 (以 二 分 变量 居多 ) 进 行 预测 的 问 
题 。 多 层 感 知 机 (MLP) 是 一 种 前 馈 人 工 神经 网 络 模 
型 ， 它 由 输入 层 、 输 出 层 和 一 个 以 上 的 隐藏 层 组 成 ， 
每 一 层 均 有 若干 神经 元 ， 通 过 逐步 调整 神经 元 间 不 
同 连 接 的 权重 来 拟 合 模 型 。 极 端 梯度 提升 (XGBoost) 
是 集成 学 习 方 法 中 常用 的 策略 ， 通 过 不 断 训练 及 优 
化 决策 树 ， 并 将 每 次 训练 所 得 的 输出 值 相 加 ， 以 获 
得 最 终 预 测 值 。 随 机 森林 算法 与 XGBoost 具有 一 定 
的 相似 性 , 但 两 者 最 大 的 区 别 在 于 随机 森林 的 输出 
值 仅 仅 是 简单 多 数 投票 的 结果 ,对 不 同 决策 树 的 训 
练 结果 也 没有 做 进一步 的 优化 提升 。 
本 研究 在 MLP 中 构建 的 网 络 由 隐藏 层 和 双 曲 
正切 激活 函数 组 成 。 在 训练 开始 前 首先 将 协 变量 进 
行 标准 化 处 理 ,， 训练 过 程 中 则 采用 共 恩 梯度 下 降 法 
(Conjugate Gradient Descent, à = 0.0000005, o = 
0.00005， 区 间 中 心 0， 区 间 偏 移 + 0.5) 来 调整 神经 
元 间 连 接 的 权重 ， 以 达到 将 连续 训练 过 程 中 的 预测 
误差 (针对 划分 至 训练 集 的 样本 ) 最 小 化 的 目的 。 该 
算法 还 将 在 每 次 训练 结束 时 计算 测试 集中 的 预测 误 
差 ， 以 确保 每 次 训练 后 预测 误差 的 减少 不 是 由 于 对 
训练 集 数据 的 过 度 拟 合 所 致 。XGBoost 是 将 训练 过 
程 中 的 所 有 模型 参数 设置 为 默认 ， 并 采用 基于 树 模 
型 (gbtree) 的 方法 进行 决策 树 递增 。 其 中 , 决策 树 的 
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递增 数量 为 100 棵 , x (提升 学 习 速 率 ，boosting 
learning rate) 默 认 值 为 0.3， 以 其 作为 特征 缩减 技术 
(shrinkage) 的 设 定 值 ， 同 样 用 于 防止 训练 集 数据 的 
过 度 拟 合 。 此 外 , 用 于 训练 集 和 测试 集 的 协 变量 都 
需 预 先进 行 标准 化 处 理 。 随 机 森林 算法 在 训练 中 构 
建 决 策 树 时 采用 的 是 自 展 法 (bootstrap) 抽 样 ， 决策 
树 的 数量 同样 默认 为 100 棵 , 旦 寻找 最 佳 分 割 属性 
时 ,把 需要 考虑 的 特征 数量 设置 为 样本 特征 的 平方 
根 。 上 述 两 个 参数 可 用 于 提高 预测 准确 性 并 防止 模 
型 过 度 拟 合 。 此 外 , 用 于 训练 集 和 测试 集 的 协 变量 
也 预先 得 到 了 标准 化 处 理 。 

ER 4 种 机 器 学 习 算 法 均 包 含 以 下 5 个 步骤 。 
第 一 , 将 所 有 数据 随机 拆 分 成 3 个 独立 的 数据 集 : 
训练 集 、 测 试 集 和 留 出 集 (训练 集 占 总 被 试 量 的 64%， 
测验 集 占 16%， 留 出 集 占 20%)。 第 二 , 在 训练 集中 
对 数据 进行 训练 ,训练 时 共有 32 个 特征 输入 。 其 中 
22 个 特征 来 自 9 道 问卷 问题 (为 表 2 的 8 个 问题 及 其 
选项 ， 以 及 学 生 对 学 习 成 绩 的 自我 评价 ); 剩余 10 
个 特征 是 通过 对 学 校 、 年 级 、 性 别 及 是 否 为 独生子 
女 等 二 分 变量 转换 为 虚拟 变量 ( 哑 变 量 ， 其 中 学 校 的 
参照 水 平 为 普通 公办 学 校 ， 年 级 的 参照 为 二 年 级 ， 
性 别 的 参照 为 女 ,， 是否 为 独生子 女 参照 独生子 女 ) 而 
得 到 。 最 终 输 入 32 个 特征 , 通过 训练 获得 第 一 个 模 
型 ,第 三 , 将 该 模型 在 测试 集中 进行 测试 ,以 获得 其 
性 能 指标 。 第 四 ,将 训练 集 和 测试 集结 合 起 来 ， 重 新 
各 这 些 数据 随机 划分 为 新 的 训练 集 和 测试 集 ， 重 复 
第 二 和 第 三 步 , 再 次 训练 得 到 第 二 个 模型 。 通 过 重 
复 100 次 第 二 至 第 四 步 的 建 模 过 程 (“划分 -训练 - 测 
验 - 重 组 -划分 ”), 最 终 可 获得 100 个 模拟 模型 从 
而 确保 无 论 样 本 被 划分 到 训练 集 还 是 测试 集 ， 所 得 
结果 均 能 保持 一 定 程度 的 稳定 性 。 第 五 , 使 用 最 初 
分 配 到 留 出 集 的 数据 (此 前 未 参与 过 任何 一 次 训练 
或 测试 ) 对 模型 进行 最 终 验 证 ， 即 进行 外 部 效 度 的 
2.4.2 ”机 器 学 习 结 果 的 集成 

在 采用 上 述 4 种 机 需 学 习 算 法 进行 分 析 的 基础 
上 ,本 研究 使 用 stacking 法 对 4 种 算法 进行 整合 ( 即 
集成 )。 具 体 说 来 ,首先 设置 逻辑 回归 、MLP、 
XGBoost 和 随机 森林 4 种 算法 对 原始 数据 进行 训练 ， 
然后 将 4 种 算法 的 训练 结果 进行 整合 (stacking 法 设 
置 为 五 折 交 又 验 证 法 )， 最 后 再 对 整合 后 的 训练 结 
进行 测试 集 验 证 和 留 出 集 验 证 (验证 算法 设置 为 逻 


2.4.3 ”机 器 学 习 模 型 的 关键 指标 

无 论 是 针对 每 一 种 机 器 学 习 算 法 ， 还 是 对 不 
同 算法 结果 的 集成 , 采用 留 出 集 对 最 终 模 型 进行 
验证 均 可 得 到 模型 的 两 个 关键 指标 。 其 一 为 计算 机 
模型 的 受 试 者 工作 特征 曲线 (Receiver Operating 
Characteristic, ROC) 下 方面 积 (Area under the Curve, 
AUC). ROC 和 AUC 是 常用 于 衡量 机 器 学 习性 能 的 
指标 ， 表 现 了 分 类 模型 的 特征 。 其 中 , ROC 是 通过 真 
阳 率 (True Positive Rate， 正 确 预测 出 的 阳性 的 数量 / 
所 有 阳性 的 数量 ) 和 假 阳 率 (False Positive Rate， 将 
阴性 误 判 为 阳性 的 数量 /所 有 阴性 的 数量 ) 绘 制 而 来 
的 曲线 ( 见 图 1), AUC 值 为 ROC 曲线 下 方 的 面积 ， 
AUC 武大 表明 分 类 需 的 效果 越 好 ， 它 可 以 用 于 评 
估 模 型 的 敏感 性 ( 即 真 阳 率 ,本 研究 中 表现 为 能 够 
准确 预测 “存在 作业 作 灿 行 为 这 一 情况 的 比例 ) 和 
特异 性 (1- 假 阳 率 ,本 人 研究 中 表现 为 能 够 准确 预测 
“不 存在 作业 作 次 行为 * 这 一 情况 的 比例 )。 敏感 性 和 
特异 性 之 间 存 在 着 一 种 函数 关系 , 在 不 同 敏感 性 条 
件 下 ,特异 性 会 朝 相 反 的 方向 变化 ,而 在 ROC 曲线 
的 对 角 线 位 置 将 达到 两 者 的 最 优 组 合 。 在 实际 应 用 
过 程 中 ， 因 具体 应 用 情境 不 同 , 在 ROC 曲线 上 以 多 
少 的 敏感 性 和 特异 性 作为 标准 , 需要 根据 实际 情况 
来 决定 。 


1 


真 阳 率 


o 假 阳 率 
图 1 计算 机 模型 的 受 试 者 工作 特征 曲线 (ROC) 描 绘 了 模 
型 敏感 性 ( 真 阳 率 ) 随 着 特异 性 ( 假 阳 率 ) 变 化 的 规 
律 。 曲线 下 的 面积 (AUC) 表 示 模 型 的 整体 性 能 ， 曲 
线 距离 恒等式 线 (虚线 对 角 线 ) 越 远 ， 代表 模型 的 
分 类 能 力 越 好 ,反之 则 越 差 。 


其 二 为 各 个 预测 变量 的 Shapley 值 。Shapley 值 
常用 于 处 理 复杂 分 配 问 题 (Shapley, 1953)。 如 A, B, 
C 三 人 共同 完成 一 项 工作 , 在 为 A 分 配 奖金 时 , 若 
要 寻求 相对 公平 ， 则 需 通 过 Shapley 值 法 获得 A 在 
其 中 的 边际 贡献 。 该 方法 首先 需要 计算 : AAS 


辑 回归 )， 从 而 实现 对 4 种 算法 的 取长补短 ， 获 得 最 
A A ete AL 


与 时 能 够 完成 的 工作 量 ; B 和 C 与 A 合作 时 所 能 完 
成 的 工作 量 减 去 B/C 单 人 能 够 完成 的 工作 量 ; B 和 C 
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与 A 合作 时 完成 的 工作 量 减 去 仅 B 和 C 合作 时 完成 
的 工作 量 。 然 后 计算 这 些 数值 的 均值 ， 即 为 A 最 终 
的 边际 贡献 。 Shapley 值 法 全 面 考虑 了 在 所 有 合作 或 
单 人 关系 中 , A 所 能 带 来 的 增益 ,对 A 的 边际 贡献 性 
进行 了 公平 且 科 学 的 计算 。 正 因为 此 ， 越 来 越 多 的 
研究 者 开始 借助 Shapley 值 法 ， 对 预测 变量 在 预测 
模型 中 的 相对 贡献 性 展开 科学 评估 (Ghorbani & Zou, 
2019; Lundberg & Lee, 2017)。 

本 研究 的 机 器 学 习 中 ,对 各 预测 变量 (影响 因 
素 )Shapley 值 的 计算 完全 遵循 上 述 计算 规则 。 其 中 ， 
“A、B、C” 即 为 不 同 的 预测 变量 ,而 “工作 量 ”* 为 变量 
在 模型 中 的 贡献 性 大 小 ， 即 预测 准确 性 。 预 测 变量 
的 Shapley 值 代表 其 对 总 体 模型 预测 准确 性 的 实际 
边际 贡献 。 通 过 计算 每 一 个 预测 变量 的 Shapley 值 ， 
Shapley 值 的 大 小 代表 这 些 预测 变量 在 模型 中 的 相 
对 重要 性 大 小 。 


3 结果 与 分 析 


3.1 描述 性 统计 
3.1.1 (EREITA 

2 显示 了 2 至 6 年 级 小 学 生 自 我 报告 参与 过 
作 熔 的 人 数 百 分 比 。 由 图 可 见 ， 作 次 行为 的 发 生 率 
在 3 年 级 时 有 了 明显 的 增长 , 而 在 4 年 级 开始 相对 
趋 于 稳定 。 以 年 级 为 预测 变量 (其 中 设 2 年 级 为 参考 
组 )， 作 次 行为 为 结果 变量 ， 进 行 二 元 逻辑 回归 分 
析 。 结 果 表 明 , 不 同年 级 小 学 生 的 作 次 率 存在 显著 
差异 < 0.001)， 其 中 2 年 级 的 作弊 率 显 闭 低 于 其 他 
各 年 级 (2 年 级 vs 3 年 级 : p = 0.002, B = 0.51, OR = 
1.67, 95% CI = 1.21~2.29; 2 年 级 vs 4/5/6 年 级 : ps < 
0.001, B = 0.70, 0.57, 0.87; OR = 2.01, 1.77, 2.39, 95% 
CI = 1.46~2.75, 1.30~2.40, 1.77~3.22), 113. 4, 5, 6 
HANERE BS EE YD EAN Sb (ps > 0.05). 


50, Oke 


ak 
和 

aol = 
a — 
St 30+ 
st 
5 20+ 
= 

10} 

i 2 年 级 3ER 4 年 级 SER 6 年 级 

图 2 2~6 年 级 自我 报告 存在 作 浆 行为 的 人 数 百分比 (**p < 


0.005, ***p < 0.001) 


3.1.2” 作 次 行 为 的 影响 因素 

表 2 显示 了 全 体 受 试 者 在 每 个 预测 变量 上 的 得 
分 均值 和 标准 差 。 由 表 可 见 ,， 小 学 生 普 普 遍 认 为 “ 受 
EMEN” (M = 3.65) (EME Ba, AEE 
是 不 能 被 接受 的 (M = 2.02, 与 3 代表 “中 立 ” 相 比 , p< 
0.001). 与 此 同时 ， 他 们 也 倾向 于 认为 周围 同伴 对 作 
次 的 接受 程度 较 低 (M = 2.08, 与 3 FALL, p < 0.001)。 
此 外 , 小 学 生 善 遍 认 为 “加 强 课堂 练习 ,在 课堂 上 把 
知识 弄 懂 ”(M = 3.28) 是 减少 作 炊 的 最 有 效 策略 ,“ 抄 
他 人 的 作业 ”(M= 2.01) 是 同伴 作弊 最 常 采 用 的 形式 。 


R2 作 准 行为 预测 变量 的 描述 统计 结果 


Item Mean SD 
Q2. FRY ELE, 1~5 
1. 受 老师 批评 3.05 1.22 
2. 受 老师 惩罚 3.65 1.31 
3. 受 父母 批评 3.24 1.25 
4, 受 父母 惩罚 3.36 1.30 
5. 受 周 围 同学 的 批评 或 嘲笑 3.33 1.48 
Q3. AFT RZ 1.81 1.12 
Q4. PITZ HE 2.13 1.17 
Q5. RMEFTSILE, 1~9 
1. SEN EME RET J BE 2.89 1.45 
2. 老师 批改 作业 更 仔细 2.88 1.36 
3. 加 强 课堂 练习 ,在 课堂 上 把 知识 弄 懂 3.28 1.50 


4. 老师 加 强 教育 ,多 强调 作业 作弊 属于 不 247 1.39 
良 行为 


5. 降低 作业 难度 2.12 1.39 
6. 老师 批评 或 惩罚 2.98 1.34 
7. 给 予 独 立 完成 作业 的 同学 以 表扬 和 奖励 ”2.88 1.42 
8. 家 长 批评 或 惩罚 2.93 1.43 
9. 做 作业 时 父母 监督 2.84 1.45 
2 2.02 0.88 
O7. PIEH BUR 2.08 0.96 
Q8. IER- AMF, 1~3 
1. 抄 他 人 的 作业 2.01 1.05 
2. 做 作业 时 抄 答案 1.91 1.04 
3. 让 他 人 帮 写 作业 1.24 0.61 


3.2 ”机 器 学 习 分 析 

为 了 更 加 准确 地 计算 不 同 变量 对 小 学 生 作业 作 
浆 行 为 的 预测 效果 ,研究 仅 将 预测 变量 相关 问题 作 
答 率 达到 100% 的 被 试 数据 纳入 机 器 学 习 ， 故 最 终 
进入 机 噩 学 习 分 析 的 被 试 量 为 1637。 如 方法 部 分 所 
R, 本 研究 在 使 用 4 种 机 需 学 习 算 法 进行 分 析 的 基 
础 上 , 重点 对 4 种 算法 所 获 结果 进行 集成 。 
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四 种 机 器 学 习 算法 及 集成 学 习 法 所 获 模 型 的 

AUC 均值 分 析 
表 3 显示 了 4 种 机 器 学 习 算法 所 各 自 模 拟 出 的 
100 个 模型 的 AUC 的 均值 ， 以 及 集成 学 习 所 模拟 出 
的 100 个 最 终 模型 的 AUC 的 均值 。 由 表 可 见 ， 这 些 
AUC 均值 均 显 著 高 于 随机 水 平 (50%, ps < 0.001)。 其 
中 ， 集 成 学 习 法 的 最 终 预 测 模型 的 AUC 均值 达到 了 
80.46%， 意 味 着 该 模型 有 80.46% 的 概率 能 够 准确 预 
测 小 学 生 是 否 会 做 出 作业 作 痊 行为 。 


表 3 四 种 机 器 学 习 算 法 及 集成 学 习 法 下 留 出 集 验 证 所 
产生 的 100 个 模型 的 AUC (%) 均 值 和 标准 差 
95% 置信 区 间 


3.2.1 


模型 均值 (%) ”标准 差 
Lower Upper 
逻辑 回归 77.87 1.50 77.72 78.01 
XGBoost 77.82 1.69 77.63 78.02 
MLP 78.25 1.70 78.01 78.48 
随机 森林 79.47 0.95 79.28 79.66 
集成 学 习 80.46 0.80 80.30 80.62 


图 3 显示 了 4 种 不 同 算法 以 及 集成 学 习 分 别 所 


A- 逻辑 回归 法 


B-XGBoost 法 


得 的 100 个 模型 的 具体 AUC 值 如 图 所 示 , 集成 学 
习 算 法 下 的 模型 总 体 具有 和 较 高 的 敏感 性 和 特异 性 
(1- 假 阳性 率 )。 由 于 集成 学 习 法 综合 了 4 种 算法 的 
优点 ， 故 后 续 的 分 析 将 重点 关注 集成 学 习 法 所 获 结 
果 , 将 表 3 中 集成 学 习 法 的 AUC 均值 转换 为 Cohen's 
d 值 ， 所 得 的 Cohen’s d 均值 为 1.214 (95% CI: 
1.205~1.222)， 表 明 该 方法 所 获 的 100 个 最 终 模 型 的 
平均 效应 量 很 大 (Cohen, 1988; Cohen’s d > 1.2 时 表 


示 效 应 量 非常 大 )。 
3.2.2 ”集成 学 习 法 所 获 最 终 模型 中 各 变量 的 Shapley 
值 分 析 


在 集成 学 习 中 , 采用 留 出 集 对 最 终 模型 进行 检验 ， 
得 到 所 有 预测 变量 的 Shapley 均值 ,， 这 些 值 均 显 著 高 
于 0 (ps < 0.05), 即 所 有 预测 变量 丝 对 该 模型 具有 显著 
的 边际 贡献 。 将 这 些 预测 变量 按照 Shapley 值 的 大 小 
进行 排列 ， 可 直观 显示 这 些 预测 变量 在 模型 中 的 相对 
重要 性 排序 。 图 4 列举 了 对 模型 预测 准确 性 的 边际 贡 
献 大 于 或 等 于 1% 的 主要 预测 变量 。 这 些 变量 间 的 相 
对 重要 性 依然 存在 较 大 的 差异 。 根 据 重 要 性 由 高 到 低 
可 大 致 将 这 些 预测 变量 分 为 以 下 4 个 组 。 


C-MLP 法 


Fa — 平均 ROC 曲 线 a ”平均 ROC 有 曲线 Fi 平均 ROC 曲 线 
0 0.2 0.4 0.6 0.8 1.0 0 0 0.2 0.4 0.6 0.8 1.0 o 0 0.2 0.4 0.6 0.8 1.0 
假 阳 率 假 阳 率 假 阳 率 
D- 随 机 森林 法 E- 集成 学 习 法 


Fai 一 一 平均 ROC 曲 线 


1 1 
0 02 04 06 08 1.0 
假 阳 率 


| 一 一 平均 ROC 曲 线 
0 wil fi 1 


0 02 04 06 08 10 
假 阳 率 


图 3 五 种 不 同 算法 及 集成 学 习 分 别 获得 的 100 个 模型 的 AUC {EL 
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自身 对 作业 作 汐 行为 的 可 接受 程度 (10.49%) 


0.038 


0032 


0.031 


作业 作 淮 行为 在 周围 的 同学 中 的 普遍 性 (3.83%) 0.028 \ 
学 习 成 绩 在 全 班 同 学 中 所 处 相对 水 平 (3.26%) 
周围 的 同学 做 出 作业 作 浆 行为 的 频率 (3.10%) 


周围 的 同学 做 出 “ 抄 他 人 作业 ”这 类 作业 作弊 行为 的 频率 (2.86%) 


年 级 对 比 (6 年 级 vs2 年 级 ) (1.75%) 

感知 到 的 同伴 对 作业 作 浴 行为 的 接受 程度 (1.69%) 

周围 的 同学 做 出 “做 作业 时 抄 答案 ”这 类 作业 作 次 行为 的 频率 (1.61%) 
对 “ 受 父母 惩罚 "这 一 作弊 可 能 后 果 的 严重 性 的 评价 (1.48%) 

对 “ 受 父母 批评 ”这 一 作弊 可 能 后 果 的 严重 性 的 评价 (1.16%) 

对 “ 受 老师 惩罚 ”这 一 作 次 可 能 后 果 的 严重 性 的 评价 (1.14%) 


0.017 


0.016 


-Shapley value- a 


0.016 | 


年 级 对 比 (4 年 级 vs2 年 级 ) (1.03%) 


0014 / 


加 民工 子弟 小 学 与 普通 公办 小 学 的 对 比 (1.01%) 
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负 向 预测 作用 ; 其 他 预测 变量 对 结果 变量 均 存 在 正 向 预测 作 


第 一 组 为 小 学 生 自 身 对 作 疾 的 接受 性 (接受 性 
越 高 ， 就 越 有 可 能 作 头 )。 该 预测 变量 的 Shapley {A 
高 达 10.49%， 代 表 其 对 总 体 模型 预测 准确 性 的 实 
际 边际 贡献 为 10.49%。 配 对 样本 t 检验 结果 显示 ， 
该 变量 的 Shapley 值 显著 高 于 3.83% (排序 第 二 的 
预测 变量 对 应 Shapley 值 , t = 23.88, df = 327, p < 
0.001), 表明 其 在 模型 中 的 预测 力 最 住 且 远 高 于 其 
他 变量 。 

第 二 组 变量 的 Shapley 值 均 在 2%~4% 内 。 首 先 
是 同伴 作 次 的 普遍 性 ,该 预测 变量 的 Shapley 值 为 
3.83%， 对 模型 预测 准确 性 的 贡献 性 显著 高 于 剩余 
所 有 变量 (vs 3.26%, t= 1.98, df= 327, p = 0.048)。 其 
次 是 小 学 生 自身 成 绩 在 全 班 同学 中 所 处 的 相对 水 平 
( 反 向 计 分 )、 同 伴 作 次 行为 的 普遍 性 、 同 伴 作 次 的 
频率 ， 以 及 同伴 做 出 “ 抄 他 人 作业 ”这 一 特定 作 灿 行 
为 的 频率 。 这 3 个 变量 的 Shapley 值 间 不 存在 显著 
的 差异 (具体 数值 参见 图 4, t = 0.57, 1.78, 1.23, dfs = 
327, p = 0.57, 0.22, 0.08)， 且 后 两 者 间 有 显著 的 相关 
KA(r = 0.21, p < 0.001)， 即 三 者 对 小 学 生 作业 作 浆 
行为 的 预测 力 相 当 。 具 体 说 来 ， 上述 变量 均 对 作 次 
行为 存在 显著 的 正 向 预测 作用 ， 即 自我 评价 的 成 绩 


0.011 


0.010 


0.010 


图 4 主要 预测 变量 在 预测 作业 作 浆 行为 时 的 Shapley 值 及 其 95% 置 信 区 间 。 其 中 “ 〇 ”表示 该 预测 变量 对 结果 变量 存在 


ad 


o 


RARA FT BEEBE; EEEE ETT ON RAE ER m 
或 越 频 繁 , MA A Ea N REENE, 

第 三 组 变量 的 Shapley 值 均 在 1%~2% 内 ,在 模 
型 中 的 边际 贡献 较 小 ， 该 组 变量 中 最 大 的 Shapley 
值 (1.75%) 显 著 低 于 2.9% (t = -6.99, df = 327, p < 
0.001)。 包 括 : 小 学 生 所 处 年 级 (6 和 4 年 级 学 生 的 
ERRET 2 年 级 学 生 ), 感知 到 的 同伴 对 作 浆 行为 
的 接受 程度 ， 同 伴 做 出 “做 作业 时 抄 答案 ”这 一 作弊 
行为 的 频率 (感知 到 的 可 接受 性 /频率 越 高 ， 作 次 的 
可 能 性 越 大 ), 小 学 生 对 “ 受 父 母 惩 神 ”、“ 受 父母 批 
评 ” 和 ”* 受 老师 惩罚 ”这 3 种 作弊 可 能 带 来 的 后 果 的 严 
重 性 评价 ( 越 是 认为 这 些 后 果 严 重 ， 越 不 可 能 作弊 ; r= 
0.44, 0.34, 0.36, ps < 0.001)， 以 及 学 校 类 型 (民工 子 
弟 学 校 的 作 浆 率 低 于 普通 公办 和 学校 )。 

除了 上 述 预 测 变量 ,剩余 的 变量 虽 对 模型 预测 
准确 性 具有 显著 的 贡献 (os < 0.05), 但 重要 性 非常 
弱 (Shapley 值 < 0.01)。 这 些 预 测 力 非 常 弱 的 变量 主 
要 包括 : 小 学 生 对 所 有 9 项 减少 作 浆 的 策略 的 有 效 
性 评价 ， 对 部 分 作弊 可 能 带 来 后 果 的 严重 性 评价 
(“ 受 老师 批评 "和 “ 受 周 围 同 学 的 批评 或 鄙 笑 ”)， 以 
及 人 口 学 信息 ( 见 表 4). 


10 心 理 


学 R 第 55 郑 


表 4 次 要 预测 变量 在 预测 作业 作弊 行为 时 的 Shapley 值 (%) 的 均值 和 标准 差 及 其 95% 置 信 区 间 


预测 变量 均值 。 标准 关 as 
Lower Upper 
民办 小 学 与 普通 公办 小 学 的 对 比 0.91 1.38 0.76 1.06 
对 “ 受 周围 同学 的 批评 或 嘲笑 ”这 一 作 蜂 可 能 后 果 的 严重 性 的 评价 0.87 0.71 0.79 0.95 
年 级 对 比 (3 年 级 vs 2 年 级 ) 0.80 1.84 0.61 1.00 
对 “降低 作业 难度 ”这 一 减少 作 次 的 策略 的 有 效 性 评价 0.70 0.80 0.62 0.79 
对 “给 予 独立 完成 作业 的 同学 以 表扬 和 奖励 ”这 一 减少 作弊 的 策略 的 有 效 性 评价 0.68 0.60 0.61 0.74 
对 “做 作业 时 父母 监督 "这 一 减少 作弊 的 策略 的 有 效 性 评价 0.63 0.59 0.56 0.69 
对 “老师 加 强 教 育 ,多 强调 作业 作 浆 属于 不 良 行为 * 这 一 减少 作 浆 的 策略 的 有 效 性 评价 0.59 0.60 0.53 0.66 
对 “老师 批改 作业 更 仔细 ”这 一 减少 作 浆 的 策略 的 有 效 性 评价 0.58 0.52 0.52 0.64 
对 “ 受 老 师 批评 ”这 一 作 炊 可 能 后 果 的 严重 性 的 评价 0.54 0.58 0.48 0.61 
年 级 对 比 (5 年 级 vs 2 年 级 ) 0.49 0.91 0.39 0.59 
对 “增加 作 商 后 的 惩罚 力度 ”这 一 减少 作 次 的 策略 的 有 效 性 评价 0.47 0.52 0.42 0.53 
对 “老师 批评 或 惩罚 "这 一 减少 作 兹 的 策略 的 有 效 性 评价 0.47 0.46 0.42 0.52 
对 “加 强 课堂 练习 ， 在 课堂 上 把 知识 弄 懂 ”这 一 减少 作弊 的 策略 的 有 效 性 评价 0.46 0.49 0.41 0.52 
对 “家 长 批评 或 惩罚 "这 一 减少 作弊 的 策略 的 有 效 性 评价 0.45 0.38 0.41 0.49 
性 别 对 比 (女生 vs 男生 ) 0.40 0.36 0.36 0.44 
有 弟弟 /妹妹 者 与 独生子 女 的 对 比 0.38 0.71 0.30 0.45 
有 哥哥 /姐姐 者 与 独生子 女 的 对 比 0.22 0.55 0.16 0.28 
周围 同学 让 他 人 帮 写 作业 这 一 行为 的 频繁 性 0.13 0.41 0.09 0.18 
既 有 哥哥 /姐姐 又 有 弟弟 /妹妹 者 与 独生子 女 的 对 比 0.06 0.34 0.02 0.10 


4 讨论 


本 研究 采用 问卷 调查 及 机 器 学 习 这 一 人 工 智能 
的 核心 方法 ,首次 系统 考察 了 小 学 生 的 作业 作 次 行 
为 ， 及 其 与 个 体 认 知 和 情境 变量 (对 作弊 后 果 的 严重 
性 的 感知 、 自 身 对 作 光 的 接受 性 和 感知 到 的 同伴 对 
作 汶 的 接受 性 、 对 作 浆 干预 策略 的 有 效 性 评价 等 )、 
同伴 作 次 的 普遍 性 和 频率 ,以 及 性 别 、 年 级 及 学 校 
类 型 等 人 口 学 变量 之 间 的 关系 ,得 到 以 下 结果 。 
第 一 ， MATA, A 33% 的 小 学 生 自 我 报告 曾 
经 有 过 作业 作 次 行为 , 且 这 一 作 次 发 生 率 随 年 级 的 
增长 呈现 出 一 定 的 变化 趋势 。 具 体 表现 为 : 2 年 级 
为 小 学 生 作业 作 商 的 菌 发 阶段 ，3 年 级 为 激增 阶段 ， 
随后 进入 平缓 期 ; 到 6 年 级 时 , EEE R 
已 达 40.5%。 这 表明 ,作业 作弊 在 2 年 级 小 学 生 中 就 
已 经 出 现 , 到 6 年 级 已 相对 普遍 。 导 致 3 年 级 作业 
作 次 率 迅速 增长 的 原因 可 能 在 于 3 年 级 的 作业 量 及 
作业 频率 的 增加 。 而 4 FRAR AER h AE ER 
趋 于 平缓 ,这 表明 了 道德 发 展 水 平 在 小 学 阶段 并 非 
影响 其 作 次 行为 的 关键 因素 (该 假设 在 小 学 生 说 度 
行为 的 研究 中 得 到 了 证 实 ， 见 Lee，2013)。 由 此 可 
见 , 作 商 作为 一 种 习惯 性 行为 , 一 旦 形成 ,车 不 及 
时 采取 有 效 的 干预 手段 , 将 可 能 持续 存在 甚至 呈 增 


长 趋势 ， 这 从 侧面 也 反映 出 早期 诚信 教育 和 对 作 浆 
进行 早期 干预 的 重要 性 。 

第 二 ， 本 研究 所 考察 的 各 个 预测 变量 均 对 小 学 
生 作 业 作 次 行为 具有 显著 的 预测 效果 。 机 响 学 习 结 
果 表 明 , 通过 集成 学 习 法 对 不 同 算法 所 获 模型 进行 
整合 ， 最 终 模 型 在 预测 作业 作 浆 行为 时 具有 较 高 的 
敏感 性 和 特异 性 (AUC 均值 高 达 80.46%)。 这 一 结果 
意味 着 : 该 模型 有 80.46% 的 可 能 性 能 够 基于 这 些 预 
测 变量 对 小 学 生 是 否 作 浆 作出 正确 预测 。 转化 AUC 
值 所 得 的 Cohen’s 4 也 显示 , 模型 在 通过 这 些 预 测 变 
量 对 小 学 生 作业 作 次 行为 进行 预测 时 ， 所 得 结果 的 
效应 量 很 大 (Cohen’s d > 1.2). 
第 三 ， 机 器 学 习 模型 各 变量 的 Shapley 值 分 析 
结果 进一步 表明 ， 所 有 预测 变量 均 对 最 终 模 型 的 较 
高 预测 准确 率 和 良好 拟 合 作出 了 显著 贡献 。 然 而 ， 
这 些 预 测 变量 的 重要 性 存在 比较 明显 的 差异 。 具 体 
说 来 : 

首先 , 小 学 生 自 身 对 作业 作 交 行为 的 接受 程度 
是 其 是 否 作 浆 的 最 关键 的 预测 变量 。 他 们 越 是 认为 
作业 作 商 是 可 接受 的 ,就 越 有 可 能 报告 自己 曾经 有 
过 这 样 的 行为 。 这 一 结果 与 以 往 在 大 中 学 生 群 体 中 
的 发 现 基 本 一 致 (Abaraogu et al., 2016; Ives & 
Giukin, 2020), Murdock 和 Anderman 通过 对 以 往 研 
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究 进 行 综 述 后 提出 , MEIE REIT A OT BES HE AY A) 
断 差 异 可 能 基于 两 种 原因 : 第 一 , MARU CA TEBE 
可 接受 性 高 可 能 是 由 于 其 并 不 认为 作 浆 是 不 道德 的 
行为 ; 第 二 , 个 体 虽 然 知道 作 次 是 不 道德 的 行为 ， 
但 出 于 为 自己 辩护 ， 故 对 其 自身 作弊 行为 进行 了 合 
理化 ,以 此 减少 作弊 行为 与 自身 道德 认 知 的 冲突 
(Murdock & Anderman, 2006)。 由 此 可 见 , 与 大 中 学 
生 一 样 ， 小 学 生 对 作弊 行为 可 接受 性 的 判断 可 能 
受到 了 这 两 个 原因 的 影响 。 

其 次 , 同伴 做 出 作业 作 星 行为 的 普遍 性 和 频率 
也 是 个 体 是 否 作 次 的 重要 预测 变量 ， 即 同伴 作业 作 
弊 行 为 是 影响 小 学 生 自 身 作 业 作 弊 行 为 的 重要 
素 。 该 结果 与 以 往 针 对 大 学 生 和 中 学 生 和 群体 的 研究 
所 获 结果 较为 一 致 ， 即 同伴 作 次 行为 能 够 导致 个 体 
对 其 自身 作 浆 行为 进行 合理 化 (Hrabak et al., 2004; 
Ghanem & Mozahem, 2019; McCabe & Treviño, 
1993)。 近 期 一 项 针对 来 自 世界 多 国 研 究 的 元 分 析 也 
显示 ,同伴 作 头 是 个 体 学 业 作 浆 行为 的 最 重要 因素 
之 一 ,， 且 这 种 “跟风 效应 ”受到 文化 因素 的 调节 一 一 
其 在 集体 主义 文化 背景 下 较 个 体 主 义 文化 背景 表现 
更 为 明显 (Zhao, Mao et al., 2022)。 

同时 ， 对 学 业 成 绩 的 自我 评价 这 一 预测 变量 也 
具有 与 同伴 作弊 行为 相似 的 重要 性 。 上 具体 表 现 为 ， 
自我 评价 成 绩 较 差 的 小 学 生 更 有 可 能 报告 自己 有 过 
作业 作弊 行为 。 这 一 结果 也 与 针对 大 中 学 生 的 研究 所 
获 结果 基本 相同 (Newstead et al., 1996; Özcan et al., 
2019), 其 反映 出 作 次 行为 背后 的 一 种 潜在 动机 : 成 
绩 较 差 的 学 生 希 望 通过 作 次 来 避免 失败 (参见 Oran 
et al., 2016)。 此 外 ,还 有 研究 发 现 ， 成 绩 好 的 学 生 更 
容易 受到 “学 习 、 黎 握 新 知识 ”这 一 学 习 动 机 的 驱动 ， 
成 绩 较 差 的 学 生 却 更 容易 受到 “获得 较 高 的 成 绩 ” 的 
驱动 ， 为 了 考 得 更 好 而 做 出 作弊 行为 (Putarek & 
Pavlin-Bernardic, 2020)。 还 有 一 种 可 能 性 是 ， 自 我 评 
价 学 业 成 绩 较 差 的 学 生 的 自我 效能 感 可 能 相对 较 弱 ， 
而 自我 效能 感 弱 的 学 生 往 往 更 容易 做 出 学 业 作 弊 行 
为 (see Murdock & Anderman, 2006)。 

此 外 ， 对 小 学 生 作业 作弊 行为 具有 一 定 预测 作 
用 的 因素 还 包括 年 级 ,学校 类 型 ,同伴 对 作 浴 的 接 
受 性 和 作 头 后 果 的 严重 性 ,但 这 些 变量 的 预测 效应 
相对 较 弱 。 例 如 ,本 研究 发 现 , 来 自 普通 公办 小 学 的 
学 生 相 较 于 民工 子弟 小 学 的 学 生 ， 表 现 出 了 更 高 的 
作业 作弊 率 。 导 致 这 种 学 校 间 差异 的 原因 可 能 与 校 
园 风 气 、 教 学 政策 以 及 师 生 关系 等 有 关 (Ramberg & 
Modin, 2019; McCabe et al., 2012)， 这 些 因素 往往 决 


定 了 一 所 学 校 所 特有 的 学 习 和 氛围 。 

再 如 ,本 研究 发 现 , 感知 到 的 同伴 对 作弊 行为 
的 接受 程度 对 小 学 生 作业 作弊 行为 具有 较 弱 的 预测 
作用 。 并 且 ,， 该 变量 的 预测 力 明 显 弱 于 小 学 生 上 自身 
对 作 潍 的 可 接受 性 ， 及 观察 到 同伴 的 作 浆 行为 的 普 
遍 性 或 频繁 性 。 由 此 可 见 ， 同伴 行为 对 作 浆 的 影响 
主要 表现 在 其 被 观察 到 的 外 部 行为 上 ， 即 小 学 生 通 
过 观察 同伴 是 否 作 次 ,达到 对 自身 行为 进行 合理 化 
的 目的 (Jurdi et al., 2011; McCabe et al., 2008)。 然 而， 
他 人 的 道德 意识 水 平 并 非 是 影响 小 学 生 是 否 作弊 的 
主要 因素 。 研 究 发 现 *“ 受 周围 同学 的 批评 或 嘲笑 ”这 
一 作 弊 后 果 严 重 性 对 作弊 的 预测 作用 也 非常 小 ， 该 
结果 在 一 定 程 度 上 佐证 了 上 述 结论 。 

对 作 次 后 果 的 严重 性 感知 也 是 较为 次 要 的 预测 
因素 ， 即 作 次 后 果 严 重 性 对 小 学 生 作业 作 浆 行为 的 
预测 贡献 性 较 小 。 这 一 结果 与 本 研究 假设 相悖 。 究 
其 原因 ， 可 能 是 因为 我 国 并 不 存在 实质 性 的 作业 作 
Wee ET) al BE “DARA XT EL (EE Jig RA AA R 
有 限 ， 有 限 的 认 知 主要 来 源 于 对 考试 作弊 可 能 导致 
后 果 的 认识 (如 被 父母 、 老 师 惩罚 等 )。 但 值得 反思 
的 是 ,尽管 各 级 各 类 学 校 大 多 制定 了 严格 的 考试 作 
ine << HE TT] ll BE, Bl a Ze TC W ER FE E ah PE BE 
为 。 这 也 表明 ,过度 依 赖 于 外 部 强制 力量 而 忽略 了 
对 学 生 自 身 能 动 性 的 培养 ( 即 对 学 生 道德 价值 观 的 
培养 ) 的 作弊 惩罚 方法 是 无 法 真正 起 到 遏制 作 浆 的 
效果 。 

最 后 ,小 学 生 对 减少 作 浆 策略 有 效 性 的 评价 及 
其 他 部 分 人 口 统计 学 因素 是 重要 性 最 低 的 预测 因素 
(但 其 对 模型 预测 的 重要 性 仍然 显著 高 于 0)。 其 中 ， 
就 减少 作弊 策略 的 有 效 性 而 言 ， 之 所 以 其 预测 作用 
弱 ， 很 可 能 与 小 学 生 普遍 倾向 于 认为 这 些 常见 的 抑 
制作 业 作 次 行为 的 策略 效果 不 佳 、 对 其 有 效 性 打分 
普遍 偏 低 有 关 。 

本 研究 具有 一 定 的 理论 创新 性 : 作为 国内 首 个 
聚焦 于 小 学 生 作业 作 商 行为 及 其 影响 因素 的 研究 ， 
初步 建立 了 关于 小 学 生 作 业 作 弊 影 响 因 素 的 综合 模 
型 ， 并 将 这 些 影响 因素 根据 量化 后 的 重要 性 指标 进 
行 了 排序 。 特 别 需要 指出 的 是 ,本 研究 发 现 小 学 生 
作业 作 次 的 影响 因素 与 大 中 学 生 学 业 作 浆 行 为 的 影 
响 因素 构成 并 不 完全 相同 , 存在 其 特殊 性 。 如 在 
Murdock 和 Anderman (2006) 的 模型 中 ， 后 果 严 重 性 
Fe fe THM K P E PE EY) E E E PE 
BL, 但 该 指标 对 小 学 生 作业 作 次 的 影响 却 远 不 如 预 
期 之 大 。 可 见 小 学 生 群 体 具 有 其 发 展 的 特殊 性 。 此 
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外 ,本 研究 还 发 现 ， 除了 后 果 严 重 性 , 还 有 一 些 被 
以 往 研究 证 明 能 够 影响 大 学 生 和 中 学 生 学 业 作 次 行 
为 的 因素 ,在 预测 小 学 生 作业 作 次 时 贡献 也 非常 微 
弱 ， 如 是 否 是 独生子 女 (Tsui & Ngo, 2016, 兄弟 姐妹 
数量 越 多 的 大 学 生 越 有 可 能 作弊 )、 性 别 (Galloway， 
2012， 男 高 中 生 作 整 率 高 于 女生 ) 等 ; 但 部 分 对 小 学 
生 作业 作 次 具有 较 强 预测 作用 的 变量 在 大 中 学 生 学 
业 作 次 行为 中 却 不 存在 显著 效应 ,如 年 级 (Ives et al., 
2017) 等 。 

但 是 , 研究 结果 也 表明 , Murdock 和 Anderman 
(2006) 提 出 的 一 些 影响 大 中 学 生 作 浆 行 为 的 关键 要 
素 也 能 够 预测 小 学 生 的 作业 作 商 ， 即 也 存在 一 定 的 
相似 性 。 如 个 体 自身 对 作业 作 浆 行为 的 可 接受 性 ， 
同伴 作业 作 次 的 普遍 性 和 发 生 频 率 ， 及 其 自身 的 成 
绩 水 平 是 预测 小 学 生 作 业 作 灿 的 关键 变量 。 可 见 ， 


模型 对 提交 的 数据 进行 计算 并 输出 结果 ( 即 每 位 小 
学 生 作 业 作 次 的 可 能 性 或 概率 0% 至 100%)。 根 据 
输出 的 结果 , 教师 或 家 长 能 够 初步 了 解 小 学 生 当 下 
有 多 大 的 可 能 性 会 在 作业 中 作 数 ,以 便于 教师 或 家 
长 进行 必要 的 关注 。 但 值得 注意 的 是 , 我 们 并 不 能 
依据 一 次 测试 的 结果 就 给 学 生 “ 贴 标签 "， 关于 如 何 
使 用 预测 模型 的 结果 ,还 需 结合 研究 伦理 和 学 校 教 
育 方式 加 以 综合 考虑 。 此 外 ,由 于 目前 问卷 涉及 的 
部 分 预测 变量 对 预测 作业 作 次 的 贡献 性 非常 小 ， 如 
对 预防 作 整 的 方法 的 有 效 性 评价 等 。 后 续 研 究 可 继 
续 删 除 问 卷 中 的 相关 条 目 并 重新 建 模 ， 开 发 出 更 简 
短 的 问卷 。 此 举 将 进一步 推进 研究 成 果 在 学 校 和 家 
庭 教育 中 的 推广 应 用 。 

此 外 , 本 研究 还 为 诚信 教育 的 方式 方法 提供 了 
具体 、 可 操作 的 实践 方案 。 首 先 , MAT EME n 


多 个 影响 着 大 学 生 和 中 学 生 学 业 作 次 行为 的 因素 ， 
也 同样 会 对 小 学 生 的 作业 作弊 行为 存在 显著 影响 
(Abaraogu et al., 2016; Ghanem & Mozahem, 2019)。 

此 外 ,本 研究 还 发 现 , 个 体 对 情境 的 认 知 (如 
“个 体 自身 对 作业 作弊 行为 的 可 接受 性 ?等 ) 在 影响 
作业 作 次 行为 中 也 发 挥 着 重要 的 作用 。 这 一 结果 为 
一 个 长 久 以 来 的 有 关 作弊 是 情境 驱动 还 是 个 体 特质 
驱动 这 一 争议 提供 了 新 的 思路 和 理论 依据 。 过 去 关 
于 作 次 的 研究 似乎 更 加 认可 个 体 的 作 浆 行为 是 受 情 
境 而 非 个 人 特质 驱动 的 (Hartshorne & May, 1928)。 
而 本 研究 的 结果 则 表明 ,情境 和 个 人 特质 的 交互 作 
用 可 能 也 在 其 中 发 挥 着 重要 的 作用 。 

本 研究 在 方法 上 也 具有 一 定 的 创新 性 。 近 年 来 ， 
随 着 人 工 智能 在 医学 、 化 学 及 生物 学 等 领域 的 广泛 
应 用 ,机 器 学 习 技 术 已 在 成 人 (Bartlett et al., 2014; 
Just et al., 2017; Livieris et al., 2018) 力 至 儿童 (Bruer 
et al., 2019; Zanette et al., 2016) 研 究 中 得 到 越 来 越 广 
泛 的 应 用 。 本 研究 首次 将 机 需 学 习 运 用 于 儿童 道德 
研究 领域 , 对 小 学 生 作业 作 次 行为 的 影响 因素 进行 
深入 分 析 。 结 果 表 明 ， 机 器 学 习 法 在 分 析 儿 童 行为 
发 展 数据 上 是 可 行 的 ,在 数 智 时 代 背 景 下 ,为 后 续 
更 多 的 儿童 心理 学 领域 同行 提供 了 一 种 新 的 研究 和 


数据 分 析 思 路 。 
本 研究 还 具有 较 强 的 实践 创新 性 。 本 研究 采 


机 器 学 习 方法 创建 了 能 够 预测 小 学 生 有 多 大 的 概率 
会 做 出 作业 作 商 行为 的 模型 (预测 准确 率 达 80% 以 
E) 未 来 可 基于 该 模型 创建 相关 app 或 网 页 版 测试 ， 
在 小 学 中 投入 应 用 。 具体 来 说 ,首先 由 小 学 生 在 app 
或 网 页 上 填写 本 研究 的 问卷 并 提交 ,后 台 基 于 已 有 


接受 性 (或 者 说 “道德 意识 ”)， 而 非 作业 作 次 后 果 的 
严重 性 ， 能 够 较 好 地 预测 小 学 生 的 作业 作 竞 行为 。 
这 就 给 予 家 长 、 老 师 及 广大 教育 工作 者 以 启示 : 不 
应 一 味 强 调 作 次 的 后 果 ， 相反, 更 有 效 的 做 法 是 从 
积极 的 角度 帮助 学 生 建立 正确 的 学 业 诚 信 认 知 ， 引 
导 其 认识 到 作 次 是 “ 零 容忍 "的 不 道德 行为 。 其 次 ， 
由 于 同伴 作 次 对 个 体 作 业 作 次 影响 很 大 ， 因 此 教师 
和 家 长 应 注意 减少 同伴 行为 所 产生 的 负面 影响 ， 并 
尝试 通过 各 种 方法 树立 同伴 的 正面 影响 。 例 如 ,给 
予 那些 即使 作业 做 得 不 好 , 但 仍然 选择 独立 完成 的 
学 生 以 充分 肯定 ,让 学 生 认 识 到 ,独立 完成 作业 比 
正确 率 更 重要 (Misselbrook, 2014; Siev & Kliger, 
2019)。 再 次 ,学 校 还 应 积极 响应 教育 部 倡导 的 “ 双 
WAR, 重 “ 质 ”不 重 “ 量 ”， 并 着 力 建立 起 一 种 良性 
的 学 习 氛 围 ， 杜绝“ 唯 成 绩 论 ”: 让 学 生 认识 到 ,做 作 
业 仅 仅 是 对 课 上 知识 的 查 漏 补缺 和 及 时 巩固 ， 并 不 
是 为 了 让 同班 同学 “一 较 高 下 ”(Misselbrook，2014; 
Siev & Kliger, 2019)。 最 后 ,作弊 是 一 种 习惯 性 行为 
(Davy et al., 2007), 鉴于 小 学 生 的 学 业 作 次 率 在 所 
有 年 龄 段 中 相对 较 低 (Cochran，2015)， 尚 处 于 萌发 
阶段 ,我 们 更 应 该 “从 娃娃 抓 起 ”， 适时 在 小 学 乃至 
幼儿 园 阶 段 推广 诚信 教育 ,将 作弊 行为 “扼杀 在 摇 
篮 里 ”。 

本 研究 存在 一 定 的 局 限 性 。 首 先 , 本 研究 所 创 
建 的 小 学 生 作 业 作 弊 行为 的 预测 模型 达到 了 
80.46%, 但 仍 存在 近 20% 的 预测 错误 的 可 能 性 ， 因 
此 仍 需 在 未 来 的 研究 中 进一步 优化 模型 。 一 方面 ， 
可 以 通过 理论 探索 ， 寻 找 更 多 新 的 可 能 影响 作业 作 
次 的 预测 变量 来 完善 模型 。 本 研究 主要 参考 了 影响 
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大 学 生 和 中 学 生 学 业 作 弊 行 为 的 因素 ， 且 侧重 于 考 
察 与 学 校 有 关 的 情境 因素 对 小 学 生 作 业 作 浆 行为 的 
影响 ,因此 不 能 排除 还 有 其 他 预测 因素 的 存在 。 且 
研究 结果 表明 ， 相 较 于 大 中 学 生 , 影响 小 学 生 作 业 
作 次 的 因素 也 具有 一 定 的 特殊 性 ,未 来 的 研究 可 依 
据 上 述 领域 进行 拓展 ， 更 充分 地 挖掘 影响 小 学 生 作 
次 的 因素 ,进而 创建 一 个 科学 而 完备 的 、 专 门 适 用 
于 小 学 生 作业 作 汐 的 理论 模型 。 另 一 方面 机 带 学 
习 是 服务 于 大 数据 的 方法 , 未 来 可 将 本 研究 问卷 转 
变 为 app 或 网 页 , 通过 进一步 扩大 样本 量 可 以 通过 
进一步 扩大 样本 量 ， 再 增加 一 个 外 部 验证 的 数据 集 ， 
对 参数 进行 调 优 ,进一步 完善 模型 ， 提 高 模型 的 预 
测 准 确 性 。 其 次 ,本 研究 对 于 小 学 生 作 业 作 次 行 》 
的 测量 采用 的 是 自我 报告 法 , 虽然 问卷 是 匿名 性 质 
的 , 但 受 社会 称许 性 影响 仍 存在 个 体 自我 报告 的 作 
次 率 低 于 真实 作 浆 率 这 一 可 能 性 。 未 来 研究 可 尝试 
通过 自我 报告 法 和 行为 实验 法 相 结 合 的 方式 来 解决 
该 问题 。 事 实 上 , 最 近 已 有 越 来 越 多 的 研究 者 开始 
采用 实验 法 来 研究 作 次 问题, 但 这 些 实验 范式 比较 
适合 年 龄 相对 较 大 的 学 生 群 体 或 成 人 (Cizek，1999; 
Zhao et al., 2021; Zhao, Peng et al., 2022)， 实 验 法 在 
儿童 群体 中 的 适用 性 还 有 待 于 更 多 研究 加 以 检验 。 
最 后 ， 本 人 研究 考察 了 不 同 作业 作业 方 式 的 普遍 性 ， 
但 这 些 方式 以 “ 抄 作业 ”、“ 抄 答案 ”等 传统 方式 为 主 ， 
并 未 涉及 数 智 时 代 下 一 些 新 型 的 作 星 方式 (如 , 采用 
“ 爱 作业 ”等 批改 作业 的 app BEATE BE, BIL fh Be 
ETRE), RRR E AT EE D AE NEST IN 
以 探讨 。 


5 结论 


本 研究 首次 聚焦 小 学 生 作业 作 油 行为 , 采用 机 
妖 学 习 集 成 算法 ， 系 统考 察 了 影响 小 学 生 作 业 作 痊 
行为 的 关键 因素 及 其 相对 重要 性 。 结果 表明 , 33% 的 
小 学 生 上 自我 报告 曾经 做 过 作业 作业 行 为 ELE BEA 
为 的 发 生 率 随 年 级 的 增长 旦 上升 趋 势 ， 机 带 学 习 集 
成 算法 得 到 的 预测 模型 AUC 值 达 80.46%, 能够 较 
准确 地 预测 小 学 生 的 作业 作 商 行为 。 总 的 来 说 ， 小 
学 生 的 作业 作 兹 行为 很 大 程度 上 取决 于 他 们 对 于 
作业 作 次 的 接受 性 ,同伴 的 作业 作 灼 行为 ,及 其 自 
身 的 成 绩 水 平 。 上 述 结果 为 儿童 诚信 行为 发 展 的 理 
论 构 建 以 及 学 业 作 商 的 早期 干预 提供 了 科学 依据 。 
此 外 , 本 研究 也 表明 ， 机 需 学 习作 为 人 工 智 能 的 核 
心 方法 ， 是 一 种 可 用 于 分 析 发 展 性 数据 分 析 的 有 效 
方法 。 
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Abstract 


Background. Academic cheating has been a challenging problem for educators for centuries. It is well established 


that students often cheat not only on exams but also on homework. Despites recent changes in educational policy and 


practice, homework remains one of the most important academic tasks for elementary school students in China. 


However, most of the existing studies on academic cheating for the last century have focused almost exclusively on 


college and secondary school students, with few on the crucial elementary school period when academic integrity 


begins to form and develop. Further, most research has focused on cheating on exams with little on homework cheating. 


The present research aimed to bridge this significant gap in the literature. We used the advanced artificial intelligence 


methods to investigate the development of homework cheating in elementary school children and the key contributing 


factors so as to provide scientific basis for the development of early intervention methods to promote academic integrity 
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and reduce cheating. 

Method. We surveyed elementary school students from Grades 2 to 6 and obtained a valid sample of 2, 098. The 
questionnaire included students’ self-reported cheating on homework (the dependent variable). The predictor variables 
included children’s ratings of (1) their perceptions of the severity of consequences for being caught cheating, (2) the 
extent to which they found cheating to be acceptable, and the extent to which they thought their peers considered 
cheating to be acceptable, (3) their perceptions of the effectiveness of various strategies adults use to reduce cheating, 
(4) how frequently they observed their peers engaging in cheating, and (5) several demographic variables. We used 
ensemble machine learning (an emerging artificial intelligence methodology) to capture the complex relations between 
cheating on homework and various predictor variables and used the Shapley importance values to identify the most 
important factors contributing children’s decisions to cheat on homework. 

Results. Overall, 33% of elementary school students reported having cheated on homework, and the rate of such 
self-reported cheating behavior increased with grade. The best models with the ensemble machine learning accurately 
predicted the students’ homework cheating with a mean Area Under the Curve (AUC) value of 80.46%. The Shapley 
importance values showed that all predictors significantly contributed to the high performance of our computational 
models. However, their importance values varied significantly. Children’s cheating was most strongly predicted by their 
own beliefs about the acceptability of cheatings, how commonly and frequently they had observed their peers engaging 
in academic cheating, and their achievement level. Other predictors such as children’s beliefs about the severity of the 
possible consequences of cheating (e.g., being punished by one’s teacher), their beliefs about the effectiveness of 
cheating deterrence strategies (e.g., working harder) and demographic characteristics, though significantly, were not 
important predictors of elementary school children’s homework cheating. 

Conclusion. This study for the first time examined elementary school students' homework cheating behavior. 
We used machine learning integration algorithms to systematically investigate the key factors contributing to 
elementary school students' homework cheating. The results showed that homework cheating already exists in the 
elementary school period and increases with grade. Advanced machine learning algorithms revealed that 
elementary school students' homework cheating largely depends on their acceptance of cheating, their peers' 
homework cheating, and their own academic performance level. The present findings advance our theoretical 
understanding of the early development of academic integrity and dishonesty and forms the scientific basis for 
developing early intervention programs to reduce academic cheating. In addition, this study also shows that 
machine learning, as the core method of artificial intelligence, is an effective method that can be used to analyze 
developmental data analysis. 

Keywords elementary school students, honesty behavior, academic cheating, cheating on homework, machine 
learning, prediction, peer behavior 


